查看原文
其他

为什么说Sora冲击的不只是抖音,还有一帮机器人公司?

何昕晔等 新皮层NewNewThing 2024-03-08

撰文:何昕晔、王杰夫

编辑:吴洋洋

Key Points


OpenAI称,Sora不只是一个视频生成器,还是「理解和模拟真实世界的基础」;


Sora生成的视频可长达1分钟;


Sora并不是一个纯粹的扩散模型,其使用了基于Transformer的扩散模型,而GPT基于的架构就是Transformer;


将视觉数据转化为统一的patch格式是Sora模型实现惊艳效果的另一关键;


杨立昆是世界模型(world model)这一概念的主要推崇者,他曾提出,未来10年的AI能够像人一样为外部世界建立认知模型,并基于这个模型对世界的下一步状态作出预测;


杨立昆显然更倾向于自家的V-JEPA率先具备了世界模型,而不是Sora;


世界模型决定了一个AI是否能从二维屏幕走向3D的物理世界,这是成为AGI的必要一步。

「比赛开始了。」Runway CEO在社交媒体上写道。

发枪的又是OpenAI。继GPT颠覆自然语言处理领域后,2月16日,OpenAI又推出了文生视频模型Sora,这次,它颠覆的是视频生成领域,以及包括电影、短视频、游戏业在内的视觉内容产业。

更重要的是,发布Sora的博客中,OpenAl称,Sora不只是一个视频生成器,还是「理解和模拟真实世界的基础」,简言之,Sora内部拥有一个「世界模型」。这是OpenAI第一次在发布一个模型时强调这一点,GPT系列模型——哪怕GPT-4——发布时,OpenAI都不曾表达过这一点。

Sora发布的同一天,同在硅谷的AI巨头Meta也发布了一个自称以世界模型为基础的模型——V-JEPA。与生成式的Sora不同,V-JEPA不是生成式的,它会根据上下文猜测被遮蔽的信息,预测图像的缺失部分。

Sora会创造比GPT更大的价值吗?它的问世对抖音、YouTube、派拉蒙等视频制作公司或分享平台意味着什么?为什么OpenAI和Meta在发布视频模型时都强调拥有「世界模型」的基础?什么是「世界模型」?「世界模型」对人工智能意味着什么?以及为什么是OpenAI做出了Sora而不是其他公司?以下是对这些基础问题的回答:

相较于Runway,Sora到底强在哪里?

用AI生成视频并不是一件新鲜事,早在2022年,清华大学与智源研究院联合推出的首个开源模型CogVideo就可以生成「狮子喝水」这样魔幻的视频。此后,Runway、Stability AI等公司相继推出了模型入局这一赛道,不久前在AI圈红极一时的Pika也是如此。

OpenAI虽然凭借ChatGPT在文本生成模型领域独占鳌头,在视频生成领域却是一个新人。不过,只要看过Sora在博客上展示的样例视频就不得不承认,Sora无论在生成视频的长度还是质量上,都将之前的各种模型远远甩在身后。

视频中女子在日本都市街头走路,1分钟的时长中镜头多次切换。

与其他文生视频模型相比,Sora最明显的优势是所生成的视频可长达1分钟。在此之前,生成的视频通常都只有几秒钟,例如Pika仅能生成时长3秒的视频,技术最为成熟的Runway最长也只能生成18秒。

有研究统计,1930至1940年代好莱坞电影平均镜头长度在10秒左右,而这一数值在2000年之后降到了4秒以内,看起来如果想把文生视频模型引入电影工业,Runway的时长也够用了。不过,这个统计只反映了镜头的平均时长,高质量的影像表达还是需要长短镜头交替实现,时长可达1分钟的Sora适用性显然会强得多。

视频中一对情侣漫步在日本街头,镜头跟随着他们由远及近。

除此以外,Sora还具备其他文生视频模型没有的、更令人惊讶的能力,OpenAI将称之为3D连续性、长距离关联性和物体永存性。3D连续性和长距离关联性指的是随着镜头移动,三维空间中的物体和场景也会相应变化;物体永存性指的是镜头内的物体可以被暂时遮挡或离开镜头。

这些都是我们日常拍摄视频时常常会出现的镜头,但对于AI生成的视频来说确实是老大难。在现实世界拍视频时,「3D连续性」「物体永存性」这些概念是不言而喻的,因为这就是物理世界的基本规律,而AI在没有「理解」这些规律的前提下模拟出近似的效果,这似乎暗示Sora也像GPT模型那样能够「涌现」出对规律的学习能力。

视频中海边城堡与圣诞村庄无缝衔接。

而且Sora生成视频的方式更加灵活。除了使用文字prompt生成视频,Sora还支持图片生成视频及视频编辑。输入一张静态的图片,Sora可以直接让图片动起来。Sora也支持将一段视频向前或向后扩展,还可以将不同风格的视频衔接。此外,用户可以通过文字指令编辑已有的视频,比如将汽车在公路上行驶的视频背景环境换成茂密的丛林。

Sora发布后,不仅Runway CEO被迫作出本文开头提到的回应,Pika创始人也回应媒体表示已在筹备冲锋,将直接对标Sora。另一家中国文生视频公司爱诗科技的员工告诉新皮层,Sora的路线很有启发,公司第一时间就组织技术团队尝试复现了,不过暂时还没有出结果。

Sora的成功再次验证了生成式AI需要「大力出奇迹」吗?

由于OpenAI并没有公布Sora模型的技术细节,但根据其发布的技术报告,Sora的核心与两点有关:其一是使用了基于Transformer的扩散模型(Diffusion Model);其二是将不同类型视觉数据转化为统一格式——像素块(patch),从而能够将更多数据用于训练模型。

首先,Sora并不是一个纯粹的扩散模型,后者是Runway、Pika、Midjourney等图像和视频模型开发商都在使用的算法。在论文中,OpenAI称Sora使用了基于Transformer的扩散模型,而GPT基于的架构就是Transformer,早在2021年,Google Brain团队推出过一个叫「视觉转换器」(Vision Transformer,ViT)的模型,通过计算同一图像中像素与像素之间的依赖关系来识别图像。在此之前,语言和视觉被视为不同的东西。语言是线性的、序列的,视觉则是一种有空间结构的、并行的数据。但Transformer证明,图片也可以被当成序列问题来解决,一张图片就是由像素起承转合地构成的句子。不仅图片,大部分问题都可以转化为序列问题,比如要预测蛋白质结构,靠的也是对氨基酸序列的学习。视频只不过是连续的图片。

将视觉数据转化为统一的patch格式是Sora模型实现惊艳效果的另一关键,即如何获取数量庞大、质量过硬、且算力性价比高的数据。

压缩后的视频被切成很多个小的方形patch,它就像大语言模型中的基本数据单位token,都是训练前的基本素材。这种方式大大提高了视频数据预处理的效率,在此之前,想要把视频数据输入模型去训练,需要做很多预处理工作,例如要保证训练视频素材的分辨率、长宽比等格式是统一的。而把视频切割为patch后,预处理工作就轻松了很多,无论何种格式的视频最终都会被切割成相同格式的patch,这就像乐高的所有零件都是统一的小块。最后,每个patch会再加上时间这个维度,升级为时空patch。

Sora的运行基于OpenAI的图像生成模型DALL·E 3、自然语言理解模型GPT所做的大量工作。比如对每段视频内容,包括角色、环境、风格、镜头等的详细描述,基于的是DALL·E 3为视觉训练数据生成的高度描述性的标题;另外,OpenAI还利用GPT将简短的用户提示转换为更长的详细字幕,然后发送到视频模型。OpenAI称,这使Sora能够准确遵循用户提出的需求生成高质量视频。

通过将时空patch与DALL·E 3和GPT提供的描述文字打包在一起输入到模型里面训练,最终Sora就可以将文本描述与时空patch对应起来。OpenAI称,与大语言模型相似,Sora模型也呈现出随着训练数据规模越大模型效果越好的规律。

为什么说Sora生成的不只是视频,还是世界模型?

在OpenAI的定义中,Sora不只是一个视频生成器,还是AI可以「理解和模拟真实世界的基础」,简言之,Sora内部拥有一个「世界模型」。

咖啡杯里两艘海盗船在海战。

OpenAI下这个结论的根据是Sora在模拟真实世界方面,尤其是表现世界的各种物理属性方面的能力,OpenAI用Sora生成的一系列视频都意在表明这一点。在滚烫的咖啡中颠簸的船舶及其周边形成的泡沫,逼真得好像Sora掌握了流体动力学;而随着镜头移动,Sora所生成视频中的物体和场景能够随着三维空间变化而相应变化,就好像模型懂得三维透视……

看过Sora的作品后,英伟达高级科学家Jim Fan也在社交媒体平台上称,「Sora并不只是一个创意玩具,它是一个数据驱动的物理引擎,是对现实世界的模拟。」

不过图灵奖得主杨立昆(Yann LeCun)对这一点并不买账。他在社交媒体平台上称,通过生成像素来对世界进行建模的成本过于昂贵,并且注定会失败。他认为,仅根据文字提示生成看似逼真的视频,并不代表模型真正理解了物理世界。文生视频的过程与基于世界模型的因果预测完全不同。经常与杨立昆对吵的马库斯这次也站在了老对头这一边。

一个模型是否掌握了「世界模型」,这个议题其实去年在ChatGPT发布之后也曾引发业界争论。以华盛顿大学语言学家Emily M. Bender为代表的人认为,大型语言模型(LLMs)不过是「随机鹦鹉」(stochastic parrots),它们并不理解真实世界,只是统计某个词语出现的概率,然后像鹦鹉一样随机产生看起来合理的字句。杨立昆的立场与之相同。

而持相反意见的派别认为,在大语言模型内部,尤其GPT这种规模的模型内部已有一个世界模型。哈佛大学、麻省理工学院的研究称,大语言模型(LLMs)在多个尺度上都学习了空间和时间的线性表征,而这些表征对不同的提示变化具有稳健性,并且在不同的环境类型(如城市和地标)中具有统一性。吴恩达随后在其专栏中称,「我相信LLM建立了足够复杂的世界模型,因此我可以放心地说,在某种程度上,它们确实理解了这个世界」。和杨立昆同时获得图灵奖的辛顿(Geoffrey Hinton)与吴恩达持一致的观点。

同样的争论似乎又在Sora身上重演。不过,这是OpenAI第一次在发布模型时声称其「具有构建世界模型的潜力」,GPT系列模型(哪怕GPT-4)发布时,OpenAI没有表达过这一点。

到底什么是世界模型?

顾名思义,世界模型(world model)就是对真实物理世界的建模,杨立昆是这一概念的主要推崇者。他曾提出,未来10年的AI应该能够建立世界模型,这个系统能够像人一样为外部世界建立认知模型,并基于这个模型对世界的下一步状态作出预测。

2022年以来,杨立昆就在尝试为AI构建这样一个「世界模型」。他甚至提出了一个自主智能体(agent)应该具备的架构,该架构包含6个核心模块,其中:配置器(Configurator)是协调指挥中心,负责协调、配置和执行其他模块发出的指令;感知器(Perception)感知世界状态和提取任务相关信息,针对特定任务接受配置器调用;世界模型(World Model)估计感知器未提供的关于世界状态的缺失信息,并预测合理的未来世界状态,包括预测由行动者(Actor)模块提出的一系列动作所导致的未来世界状态;行动者(Actor)负责寻找最优行动方案;成本(Cost)模块负责计算智能体的不适值(discomfort),目标是最小化内在成本的未来值;短期记忆(Short Term Memory)负责跟踪当前和预测世界的状态及相关成本。

在这个agent系统中,「世界模型」只是模块之一,负责预测感知器未提供的关于世界状态的缺失信息,便于整个架构中的决策者利用该信息作出决策、路径规划。杨立昆认为,只有能做规划的AI才称得上通用人工智能(AGI),目前包括GPT在内的LLMs都不具备这种规划能力,原因是它们缺乏对世界如何运行的常识。这些常识不仅包括人际关系,更包括重力、惯性等物理感知,这些常识即「世界模型」,拥有这些常识,机器才能在看到苹果离开树枝的时候判断它接下来会掉在下方的地上,而不是掉到左边、右边或其他方向。这种数据在语言中无论怎么描述都不如在视觉数据中丰富。

2月16日,Sora发布的同一天,Meta也发布了一个名为V-JEPA(Video Joint Embedding Predictive Architecture,视频联合嵌入预测模型)的视频预测模型。与Sora以生成下一个patch的方式完全不同,V-JEPA是一种「非生成式模型」。它通过预测视频中被隐藏或缺失部分的抽象表征来学习,Meta没有说明这种抽象表征是否是文字,不过可以确定的是它预测的并不是「像素」,而是比像素更抽象的数据表征。

通过这种方式,Meta试图让模型专注于从视频内容的高层概念上理解图像,而不必担心通常对完成任务无关紧要的细节,比如像Sora生成的「咖啡中的船舶」视频中丰富的泡沫,可能就不是V-JEPA会预测的对象。 

「V-JEPA 是朝着更扎实地理解世界迈出的一步,因此机器可以实现更通用的推理和规划。」杨立昆在V-JEPA 发布后说,这个预测器可以作为早期的物理世界模型——你不必看到视野不及之处发生的一切,模型可以从概念上告诉你那里发生了什么。

作为Meta副总裁兼首席AI科学家,以及JEPA系列模型的主导者,杨立昆显然更倾向于自家的V-JEPA率先具备了世界模型,而不是Sora。下一步,Meta大概就要将V-JEPA作为agent的一个模块,用以试验规划和连续决策。

是否具备了世界模型为什么重要?

对世界模型的追求和宣称拥有这项能力不只是听上去好听,它决定了一个AI是否能从二维屏幕走向3D的物理世界,这是成为AGI的必要一步。

ChatGPT发布之后,全球各大机器人公司都在尝试将GPT装进机器人的大脑。但它们都知道,机器人只懂语言是不够的,若要在真实物理世界中行走,机器人的系统必须能理解真实世界中发生的各种物理事件才能生存:一个苹果掉下来,是会砸到自己头上的;一个玻璃杯被抛出去,碰到物体是会碎的;以及如果一个人从对面走来,大概会用多长时间来到自己身边……

因此2023年下半年,机器人领域的一大风潮,就是让机器人在读了万卷书(加载GPT)之后,再行万里路——在实体空间中训练机器人。2023年7月,Google DeepMind团队就曾推出一款名为RT-2(Robotic Transformer 2)的机器人,这款机器人能够让操作者通过自然语言指示RT-2机器人完成任务,哪怕是它未接受过训练的任务。而它能做到这一点,使用的就是一个融合了语言模型和物理训练数据的复合模型。

听到抓取「灭绝的动物」后,RT-2抓起了恐龙。

Google首先将13个机器人放置到办公室工坊环境中训练了17个月,由此获得的数据被加载到基于大语言模型的「视觉-语言模型」(visual-language model,VLM)上,由此形成「视觉-语言-动作模型」(visual-language-action,VLA),即RT-2。

如果能将Sora加载到RT-2中,它也许就不需要在实体办公室环境中训练17个月了。Sora的视觉生成功能可以根据既有场景状态生成下一帧,也就是接下来很可能会发生的事,agent便可以提早做好准备。

当然,无论Sora还是V-JEPA,目前都还不是足够稳定的视频生成或预测器。V-JEPA没有展示由其预测的视频,OpenAI也在论文中承认,Sora生成的视频并不完美,它仍然会生成不符合物理规律的画面,比如,所生成的视频中一个人咬了饼干之后却没有留下咬痕、人在跑步机上向相反的方向跑动、打翻杯子后杯子方向还未改变杯内液体先流了出来……不过,在成功生成的视频中,随着镜头移动,三维空间中的物体和场景已经展现出相应变化了。这是Runway和Pika们都未能做到的。

-END-

人工智能的「资本游戏」
11家中美科技巨头,谁拥有AI年度气象的晴天?

智能晚报|OpenAI的新品列表来了,既有视频生成、还有智能体和AI搜索;传月之暗面估值25亿美元……

继续滑动看下一个

为什么说Sora冲击的不只是抖音,还有一帮机器人公司?

何昕晔等 新皮层NewNewThing
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存